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ZUSAMMENFASSUNG 

Verfahren zum Betrieb eines Spracherkennungssystems 

Es wird ein Verfahren zum Betrieb eines Spracherkennungssystems beschrieben, in 
welchem ein Sprachsignal (Si) eines Benutzers detektiert und zur Erkennung einer im 
Sprachsignal (Si) enthaltenen Sprachinformation analysiert wird. Hierbei ermittelt das 
Spracherkenriungssystem einen Empfangsqualitatswert (S Q ) oder einen StSrwert, 
welcher eine aktuelle Empfangsqualitat reprasentiert. Das Spracherkennungssystem 
schaltet in einen storunempfindlicheren Betxiebsmodus um und/oder gibt ein 
Warnsignal (Sw) an den Beriutze^ aus, wenn der Empfangsqualitatswert (S Q ) eine 
bestimmte Empfangsqualitatsschwelle unterschreitet bzw. der Storwert eine 
Storschwelle uberschreitet. Dariiber hinaus wird ein entsprechendes 
Spracherkennungssystem beschrieben. 



BESCHREIBUNfi 

Verfahren zum Betrieb eines Spracherkennungssystems 

Die Erfindung betrifft ein Verfahren zum Betrieb eines Spracherkennungssystems, in 
welchem ein Sprachsignal eines Benutzers detektiert und zur Erkennung einer im 
Sprachsignal enthaltenen Sprachinformation analysiert wird: Dartiber binaus betrifft die 
Erfindung ein Spracherkennungssystem mit Mitteln zur Detektion eines Sprachsignals 
eines Benutzers und mit einer Spracherkennungseinrichtung, urn das detektierte Sprach- 
signal zur Erkennung einer im Sprachsignal enthaltenen Sprachinformation zu analysie- 
ren. , • 

In vielen Anwendungsbejeichen werden zunehmend Spracherkennungssysteme genutzt, 
urn eine sprachliche Kommunikation zwischen einem Benutzer und der jeweiligen An- 
wendung, z.B. einer Geratesteuerung oder einem automatischen Informationsdienst, zu 
ermoglichen. Solche Sprach-Benutzerschnittstellen haben viele Vorteile. Zum einen er- 
lauben sie ganz allgemein die freihahdige Bedienung von.Geraten. Zum anderen sind 
sie besonders als Benutzerschnittstellen filr sehbehiriderte oder korperbehinderte Perso- 
nen geeignet, welche nicht in der Lage sind; optische Anzeigen zu lesen und/oder Ein- 
gabehilfsmittel wie eine Tastatur oder eine Maus zu bedienen und welche daher auf 
Sprache als Kommunikationsmittel angewiesen sind. Des Weiteren werden solche Be- 
nutzerschnittstellen zunehmend in automatischen Sprach-Dialogsystemen genutzt. Ein 
Beispiel fur solche Sprach-Dialogsysteme sind automatische Anrufbeantwortungs- und' 
Auskunftssysteme, wie sie inzwischen insbesondere von einigen grfifieren Firmen und 
Amt6m verwendet werden, urn einen Anrufer mSglichst schnell und komfortabel mit 
der gewiinschten Information zu versorgen oder mit einer Stelle zu verbinden, welche 
fur die speziellen Anfragen des Anrufers zustandig ist. Weitere Beispiele hierfttr sind • 
automatische Telefonauskunftssysteme, Fahrplanauskunftssysteme, Informationsdienste 
mit allgemeinen Veranstaltungshinweisen oder Kino- und Theaterprogrammen sowie 
beliebige Kombinationen der verschiedenen Auskunftssysteme. . • 
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Je nach Art der konkreten Anwendung, die das Spracherkennungssystem nutzt, erfolgt 
die technische Ubermittlung des Sprachsignals des Benutzers zum Spracherkennungs- 
system ttber unterschiedliche Wege bzw. Gerate. Bei stationaren Dialogsystemen, bei- 
spielsweise in Informationsterminals an offentlichen Standorten wie Bahnhafen, Flug- 
hafen, Museen etc, weist das Spracherkennuhgssystem einen oder mehrere Empfangs- 
kanale auf, an die geeignete Mikrofone, Headsets oder dgl. angeschlossen sind, ttber die 
die Nutzer mit dem Terminal bzw. dem Spracherkennungssystem kommunizieren kon- 
nen. Die zuvor beschriebenen automatischen Sprach-Dialogsysteme sind dagegen ttbli- 
cherweise ttber ein Kommunikationsnetz, beispielsweise ein Telefonnetz odef das In- • 
ternet, mittels entsprechender Endgerate des Benutzers erreichbar. Hier wird folglich 
das Sprachsignal des Benutzers zunachst vom Endgerat erfasst, in elektrische Signale 
umgewandelt und ttber einen Sprach- und/oder Datenkanal des Kommunikationsnetzes 
an einen Anschluss des Sprachdialogsystems ttbermirtelt. 

Insbesondere bei solchen Spracherkennungssystemen, welche von den Benutzern mit- 
tels eines Kommunikationsendgerats aus einer beliebigen Umgebung heraus kontaktiert . 
werden kOnnen, ergibt sich zwangslaufig, dass die Empfangsqualitat, mit der das 
Sprachsignal empfangen wird, stark differieren und sich sogar wahrend einer Sitzung 
stark andem kann. Die Empfangsqualitat wird dabd zu einem wesentlichen Teil zum 
einen durch die Qualitat des Obertragungskanals, d. h. beispielsweise der Telefonver- 
bindung, sowie zum,anderen von dem Hintergrundgerauschpegel besthnmt, der wiede- . 
rum voider Umgebung abhangig ist, in der sich der Benutzer gerade befmdet. Es ist 
klar, dass mit einer schlechteren Empfangsqualitat auch die Arbeitsbedingungen fttr das 
Spracherkennungssystem ungttnstigersind, da Nebengerausche oder auch kurzzeitige 
St6rungen bzw. Unterbrechungen des Obertragungskanals das Erkennungsergebnis ver- 
falschen konnen. Mit zunehmender Verschlechterung der Empfangsqualitat kommt es je 
nach Empfindlichkeit des Spracherkennungssystems frtther oder spater dazu, dass das 
Spracherkennungssystem kaum noch in der Lage ist, einigermafien zufriedenstellende 
Erkennungsergebnisse zu liefern. Ungttnstigerweise ist es dabei so, dass in der Regel 




gerade die Spracherkehnungssysteme, welche moglichst schnell und natilrlich auf eine 
Auflerung eines Benutzers reagieren und daher fur den Benutzer an sich sehr komforta- 
bel sind, besonders empfindlich auf Storungen reagieren. Dagegen sind Spracherken-' 
nungssysteme, welche z. B. nur zu bestimmten, genau vorgegebenen Zeitpunkten die 
Eingabe von SprachauBerungen des Benutzers zulassen, welche eine bestimmte, relativ 
hohe Lautstarke bei der Spracheingabe erfordern und welche relativ langsam auf Aufle- 
rungen reagieren, gegenuber Verschlechterungen der Empfangsquaiitat robuster. 

Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren zum Betrieb eines Spracher- 
kennungssystems bzw. ein Spracherkennungssystem der eingangs genannten Art dahin- 
gehend zu verbessem, dass es auch bei einer Verschlechterung der Empfangsquaiitat ' 
mit mSglichst guter Qualitat weiter arbeitet und dabei den maximal moglichen Komfort 
fur den Benutzer bietet. • 

Diese Aufgabe Wird dadurch gelfist, dass ein Empfangsqualitatswert oder ein StSrwert 
ermittelt wird, welcher eine aktuelle Empfangsquaiitat reprasentiert, und dass das 
. Spracherkennungssystem in einen storunempfindlicheren Betriebsmodus umschaltet 
und/oder ein Warnsignal an den Benutzer ausgibt, wenn der Empfangsqualitatswert eine. 
bestimmte Empfangsqualitatsschwelle unterschreitet bzw. der StSrwert eine StOrschwel- 
le uberschreitet. 

Da die Beobachtung eines Empfangsqualitatswerts beztlglich des Unterschreitens einer 
bestimmten Empfangsqualitatsschwelle bis auf die Verwendung reziproker Werte sowie 
die entsprechende Umkehr der Grenzbedingung mit einer Beobachtung eines StSrwerts, 
beispielsweise die H6he eines Hintergrundgerauschsignals, beziiglich des Oberschrei- 
tens einer bestimmten Storschwelle identisch ist, erfolgt die weitere Beschreibung der 
Erfindung - ohne die Erfindung in dieser Hinsicht zu beschranken - der Einfachheit 
halber in der Regel nur anhand der ersten Variante. Die einander entsprechenden Be- 
griffe der beiden Varianten konnen in der nachfolgenden Beschreibung jederzeit gegen- 
einander ausgetauscht werden. 
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Die Erfindung ermoglicht eine angemessene Reaktion des Spracherkennungssyste 
selbst und/qder des Benutzers auf eine Verschlechterung der Empfangsqualitat, so dass 
folglich dem Benutzer immer der unter den aktuellen Empfangsbedingungen maximal 
mSgliche Komfortgeboten werden kann und andererseits sichergestellt ist,' dass bei 
schlechter werdenden Empfangsbedingungen die Qualitat der Erkennungsergebnisse 
nicht zu stark abfallt. 

Als eine Reaktion des Spracherkennungssystems selbst ist dabei vorgesehen, dass das 
Spracherkennungssystem in einen robusteren Betriebsmodus umschaltet, in dem die 
Empfangsqualitat sich weniger auf die Qualitat der Spracherkennung aUswirkt. Bei- 
spielsweise konnte ein Sprachaktivitatsdetektor, welcher das eingehende Sprachsignal 
zunachst detektiert, unempfindlicher geschaltet werden oder es kSnnen Wartezeiten, bis 
eine Reaktion des Spracherkennungssystems erfolgt, verlangert werden, 'so dass das 
Spracherkennungssystem insgesamt nicht mehr. so schneil auf eventuelle Nebengerau- 
sche reagiert. Alternativ oder zusatzlich wird ein Warnsignal, bei dem es sich bevorzugt 
urn eine ausflihrlichere Warnmeldung in Form eines vom Spracherkennungssystem aus- 
gegebenen Sprachsignals handelt, an den Benutzer ausgegeben, so dass dieser auch 
selbst auf die Verschlechterung der Empfangsqualitat reagieren kann und sich beispiels- 
weise in eine ruhigere Umgebung begibt oder bei Verwendung eines Mobilfunkgerats 
versucht, die Mobilfunkverbindung durch Aufsuchen eines, geeigneten Standorts zu 
verbessern. 

Hierbei sind die unterschiedlichsten Kombinationen der beiden genannten Reaktions- . 
moglichkeiten denkbar. So kann beispielsweise nur ein Warnsignal an den Benutzer 
ausgegeben werden oder nur eine automatische Umschaltung in einen storungsunem- 
pfindlicheren Betriebsmodus durchgeftthrt werden. Es kann aber auch gleichzeitig mit 
der Umschaltung in den robusteren Betriebsmodus eine Warnmeldung an den Benutzer 
ausgegeben werden, die vorzugsweise den Hinweis enthfilt, dass der Betriebsmodus 
geschaltet wurde. Des Weiteren ist es auch mSglich, dass zunachst nur das Warnsignal 
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an den Benutzer ausgegeben wird und beispielsweise nach Ablauf einer bestimmten 
Zefc wenn die Empfangsqualitat nicht wieder steigt oder sogar noch starker absinkt, 
- eine Umschaltung in den storungsunempfmdlicheren Betriebsmodus erfolgt. • 

Die Empfangsqualitatsschwelle kann dabei auch in Abhangigkeit von bestimmten Para- 
metemderjeweiligenAnwendungvariab^^^ 

hangigkeit davon, welche Folgen eine fehlerhafte Erkennung eines Sprachsignals haben 
kann. Insbesondere ist es auch moglich, dass mehrere. unterschiedliche Empfangsquali- 
tatsschwellen festgelegt werden und in Abhangigkeit von diesen Empfangsqualitats- 
schwellen jeweils stufenweise unterschiedliche Betriebsmodi eingeschaltet und/oder ' 
bestimmte Warnsignale ,an den Benutzer ausgegeben werden. 

Bei einem besbnders bevorzugten Ausfuhrungsbeispiel wird das Spracherkennungssys- 
tem automatisch in den vorherigen Betriebszustand zuriickgeschaltet, wenn der Em r . [ 
pfangsquaiitatswert die Empfangsqualitatsschwelle wieder ttberschreitet. D. h. das 
Spracherkennungssystem wird beispielsweise automatisch wieder empfindlicher und • 
reagiert somit fur den Benutzer komfortabler, sobald sich der Benutzer aufgrund des - 
Warnsignals erfolgreich urn eine bessere Empfangsqualitat bemuht, oder aus sonstigen 
Griinden die Empfangsqualitat wieder besser wird. ■ 

Bei einem besonders bevorzugten Ausfuhrungsbeispiel wird bei Unterschreiten der Em- 
pfangsqualitatsschwelle ein Barge-in-Betriebszustand des Spracherkennungssystems 
ausgeschaltet. D. h. das Spracherkennungssystem schaltet von einem Betriebsmodus, in 
dem der Benutzer die Moglichkeit hat, in Sprachausgaben des Spracherkennungssys- 
tems, sog. „Prompts«, hineinzureden, in einen „alternativen" Betriebsmodus urn, in 
.welchem der Benutzer zunachst die vollstandige Ausgabe des Prompts abwarten muss, 
bevor er auf das Prompt des Spracherkennungssystems reagieren kann. Solche Barge-in- 
Spracherkennungssysteme haben zum einen den Yorteil, dass sie gegentiber den „alter- 
nativen" Sys.temen erheblich natiirlicher, d. h. wie ein „richtiger« GesprSchspartner, fur 
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den Benutzer reagieren. Zum anderen kann ein erfahrener Benutzer ein solches Sprach- 
erkennungssystems erheblich schneller bedienen, da er oftmals die auszugebenden 
Prompts bereits kennt und daher die Ausgabe des Prompts durch eine vorzeitige Reak- 
tion unterbrechen und somit den gesamten Dialog zeitlich verkurzen kann. 

Die Ermittlung eines Empfangsqualitatswerts kann auf verschiedene Weise durchge- 
ftihrt werden. 

Besonders einfach ist ein Empfangsqualitatswert mittels eines Sprachaktivitatsdetektors 
ermittelbar, welcher ohnehin in der Regel am Eingang des Spracherkennungssystems : 
dazu verwendet wird, urn zunachst das eingehende Sprachsignal als solches zu detektie- 
ren und an die eigentliche Spracherkennungseinrichtung weiterzuleiten. Hierbei kann 
der Empfangsqualitatswert z. B. auf Basis eines in einer Sprechpause des Benutzers em- , 
pfangenen Untergrundsignals bestimmt werden. D. h. es wird beispielsweise ein 
'Rauschpegel bzw. die Basis-Signalenergie am Eingang innerhalb der Sprechpausen 
gemessen und als MaB fur die Empfangsqualitat genutzt. So:kann beispielsweise fest- 
gestellt wefden; ob der Benutzer sich in einer ruhigen oder lauten Umgebung befindet. 
Des Weiteren kann der Empfangsqualitatswert auch mit Hilfe der eigentlichen Sprach- 
erkennungseinrichtung selbst ermittelt wbrden, z. B. auf Basis von erreichten Konfi- 
denzwerten fur die Erkennungsergebnisse oder auf Basis von anderen Parametern, die 
beispielsweise von der Qualitat des Erkennungsergebnisses oder vom Aufwand bei del: 
Erkennung abhangen. 

Die konkrete Verarbeitung des Empfangsqualitatswerts innerhalb des Spracherkenn- 
ungssystems kann dann ebenfalls auf unterscbiedliche Weise erfolgen. 

Zum einen kann der Sprachaktivitatsdetektor den Empfangsqualitatswert selbst bei- 
spielsweise an eine Dialog-Steuereinrichtung abermitteln. In diesem Fall kann z. B. 
Programmierer der jeweiligen Anwendung, welcher die Dialog-Steuereinrichtung ent 
sprechend seiner Anwendung ausbildet, festlegen, ab welcher Empfangsqualitats- 
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schwelle das Spracherkennungssystem in welcher Weise reagiert bzw. welche Prompts 
an den Benutzer ausgegeben werden. 

Altemativ oder zusatzlich ist es auch moglich, dass der Sprachalctivitatsdetektor ein 
Empfangsbeeintrachtigungsanzeigesignal an die,Dialog-Steuereinrichtung und/oder 
andere Komponenten des Systems ausgibt, wenn der Empfangsqualitatswert die Em- 
pfangsqualitatsschwelie unterschreitet. Die Dialog-Steuereinrichtung kann dann ent- 
sprechend auf das Empfangsbeeintrachtigxmgsanzeigesignal reagieren und beispiels- 
weise einen passenden Prompt an deri Benutzer ausgeben. AuBerdem kann uber die 
Dialog-Steuereinrichtung und/oder die weiteren Systemkomponenten der Betriebs- " 
zustand geandert werden. ■ , 

Bei einem besonders komfortablen System wird ein eingehendes Signal detaillierter hin- 
sichtlich der Art der Storung, die dafiir Verantwortlich ist, dass der Empfangsqualitats- 
wert unterhalb der Empfangsqualitatsschwelle liegt, analysiert. Es wird dann ais Warn- 
signal an den Benutzer ein Prompt ausgegeben, welches die entsprechenden Informati- 
onen enthalt. D.h. es wird beispielsweise analysiert, ob es sich urn eine schlechte Ver- 
bindung zwischen einem Kommunikations'endgerat des Benutzers und dem Spracher- 
kennungssystem handelt oder ob' die Hmtergrundgerausche in dpr Umgebung' des Benu- 
tzers zu laut s'ind. Wenn der Benutzer die entsprechenden Informationen erhalt, fallt es 
ihm leichter, in der richtigen Weise zureagieren, urn die Empfangsqualitat zu verbes- 
sern. Diese Analyse kann u. a. mit Hilfe. des Sprachalctivitatsdetektors und/oder der ei- ■ 
gentlichen Spracherkennungseinrichtung erfolgen. • 

Ein erfindungsgemaBes Spracherkennungssystem muss zur DurchfUhrung des erfiri- 
dungsgemaBen Verfahrens zum einen eine entsprechende Qualitatskontrolleinrichtung 
zur Ermittlung eines entsprechenden Empfangsqualitatswerts oder eines St5rwerts auf- 
weisen. Zum anderen muss das Spracherkennungssystem einen Vergleicher aufweisen, 
urn den Empfangsqualitatswert mit einer bestimmten Empfangsqualitatsschwelle zu 
vergleichen oder urn den StSrwert mit einer bestimmten Storschwelle zu vergleichen. 



SchlieBlich benotigt ein solches Spracherkennungssystem entsprechende Steuerungs- 
mittel, beispielsweise eine Schalteinrichtung oder eine efttspjechend programmierte 
Dialog-Steuereinrichtung, urn das Spracherkennungssystem in einen stOrungsunem- 
pfindlicheren Betriebsmodus umzuschalten und/oder ein Warnsignal an den Benutzer 
auszugeben, wenn der Empfangsqualitatswert eine bestimmte Empfangsqualitats- 
schwelte xinterschreitet bzw. der Storwert die Storschwelle uberschreitet: Der Ver- 
gleicher kann dabei auch in andere Komponenten des Systems, beispielsweise den 

Sprachaktivitatsdetektor oder die- Dialog-Steuereinrichtung integriert sein. 

i * 
t 

» ■ 

Ein erfindungsgemSBes Spracherkennungssystem kann vorzugsweise in weiten Teilen 
mittels geeigheter- Software auf einem Computer bzw. in einer Sprachsteuerung eines 
Gerats realisiert werden. So konnen z. B. die Spracherkennungseinrichtung und die Di- 
alog-Steuereinrichtung vollstandig in Form von Softwaremodulen realisiert werden. ' 
Auch eine Einrichtung zur Generierung der geeigneten Prompts, beispielsweise ein so- 
genannter „TTS-Konverter" (Text-To-Speech-Konverter) ist eberifalls mittels geeigne- 
ter Software realisierbar. Alternativ ist es auch moglich, einen.Prompt-Player zu ver- ■ 
wenden, welcher bestimmte, im vorhinein aufgenommehe Prompts fur den Benutzer 
abspielt. Es ist naturlich erforderlich, dass das System entsprechend hardwaremaBig zu 
realisierende MQglichkeiten zur Spracheingabe und zur Sprachausgabe hat, beispiels- 
weise ein Mikrofon und einen Lautsprecher oder eine Schnittstelle zum Anschluss an 
ein Kommunikationsnetz aufweist, uber welches das Spracherkennungssystem mittels. 
eines EndgerSts erreichbar ist. 

Insbesondere ist es auch mdglich, dass das Spracherkennungssystem nicht innerhalb ei- 
nes einzelnen Gerats, beispielsweise auf einem einzelnen Server, realisiert ist, sondern 
dass verschiedene Komponenten des Systems an verschiedenen Orten angeordnet sind, 
welche Uber ein entsprechendes Netzwerk untereinander verbunden sind. Das erfin- - 
dungsgemafie Spracherkennungssystem kann in Verbindung mit beliebigen Applika- 
tionen verwendet werden. Insbesondere kann es auch gleichzeitig, beispielsweise in 
Form eines Timesharing-Verfahrens, mehreren Applikationen als dienstleistendes 



System zur Verftigung stehen und so fur die verschiedenen Applikationen jeweils eine • 
Benutzerschnittstelle bilden. 

Die Erfindung wird im Folgenden unter Hinweis auf die beigefugten Figuren anhand 
zweier Ausfuhrungsbeispiele naher erlautert. Es zeigen: 

Figur 1 ein schematisches Blockdiagramm ftir ein erfindungsgemafies Spracherkenn- 
ungssystem gemafi einem ersten AusfTuhrungsbeispiel, 

Figur 2 ein schematisches Blockdiagramm flir ein erfindungsgemaBes Spracherkenn- 
: ungssystem gemafi einem zweiten Ausfuhrungsbeispiel. 

i 

Bei den in den beiden Figuren dargestellten Austuhrungsbeispielen handelt es sich je- 
weils urn sogenannte „barge-in-fahige" Spracherkennungssysteme 1 . 

An die Spracherkennungssysteme 1 ist jeweils zur Eingabe eines Sprachsignals S, ein " 
Mikrofon 2 angeschlossen. Zur Ausgabe von akustischen Signalen bzw. Sprachausga- 
ben (Prompts) an den Benutzer ist an die Spracherkennungssysteme 1 jeweils ein Laut- 
sprecher 3 angeschlossen.. Alternativ konnen sich das Mikrofon' 2 und der Lautsprecher 
3 auch in einem vom Spracherkennungssystem 1 selbst entfernten Endgerat befmden,; 
welches iiber eine geeignete Schnittstelle, beispielsweise ein Telefonnetz o. A, mit dem 
Spracherkennungssystem 1 verbunderi ist. 

Ein vom Mikrofon 2 aus eingehendes Signal gelangt bei beiden Spracherkennungs- ' 
systemen 1 jeweils zunachst zu einem Echofilter 4 (auch „Echo Cancellator" genannt). 
Dieser Echofilter 4 dient dazu, urn in den Fallen, in denen der Benutzer .gleichzeitig 
spricht, obwohl noch ein Prompt So durch das Spracherkennungssystem 1 selbst ausge- 
geben wird, das Echo des Prompts S Q , welches in gedampfter Form dem Sprachsignal 
Si uberlagert sein kann, aus dem Eingangssignal auszufiltern! 
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Das Sprachsignal S, wird dann an einen Sprachaktivitatsdetektor 5 weitergeleitet, wel- 
cher die Signalenergie und somit die Sprachaktivitat des Benutzers misst. Dieser 
Sprachaktivitatsdetektor 5 dient zum einen dazu, urn den Beginn und das Ende eines 
Sprachsignals sowie Sprechpausen innerhalb einer AuBerung des Benutzers zu detek^ 
tieren. Zum anderen gibt dieser Sprachaktivitatsdetektor ein Barge-in-Signal S B i aus, 
welches zu einem Text-to-Speech-Konverter 8 (im Folgenden TTS-Konverter 8 ge- ' 
nannt) und an eine Dialog-Steuereinrichtung 10 geleitet wird, um in den Fallen, in de- 
, nen ein Benutzer in einen ausgegebenen Prompt hinein spricht, die weitere Ausgabe des 
Prompts durch den TTS-Konverter 8 zu verhindern. 

Im vorliegenden Fall befindet sich in der Ausgangsleitung fur das Barge-in-Signal S Bi ' 
des Sprachaktivitatsdetektors 5 eine Barge-in-Schalteinheit 9. Nur im geschlossenen 
Zustand dieser Barge-in-Schalteinheit 9 ist das System 1 tatsfichlich barge-in-fahig. Bei 
geoffhetem Schalter (wie in Figur 1 dargestellt) reagiert das Spracherkennungssystem 1 ■ 
dagegen auf eine Spracheingabe des Benutzers wahrend der Ausgabe eines Prompts 

nicht. v m ' • 1 

i 

Vom Sprachaktivitatsdetektor 5 aus wird das Sprachsignal S, selbst an eine automati-' 
sche Spracherkennungseinrichtung 7 weitergeleitet, in welcher die eigentliche Analyse ' 
des Sprachsignals S, zur Erkennung der darin enthaltenen Sprachinformation durchge- 
fuhrt wird. Das Erkennungsergebnis wird dann in Textform bzw. in einer anderen ma- 
schinenlesbaren Form an die Dialog-Steuereinrichtung 10 weitergeleitet. 

Diese Dialog-Steuereinrichtung 10 reagiert schliefilich in vorbestimmter Weise, d. h. 
gemafi einem vorgegebenen Dialogablauf, auf das Erkennungsergebnis und sucht bei. 
spielsweise aus einem Speicher 12 eine vom Benutzer gewtoschte Information heraus 
Oder hinterlegt dort vom Benutzer eingegebene Daten. Auflerdem steuert diese Dialog- 
Steuereinrichtung den TTS-Konverter 8 und tlbergibt diesem die Daten fur die an den 
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Benutzer auszugebenden Prompts. Die Prompts werden dann vom TTS-Konverter 8 aus 
iiber den Echofilter 4 an den Lautsprecher 3 ubermittelt und dort ausgegeben. Der ge- 
naue Aufbau der Dialog-Steuereinrichtung 10 ist in der Regel abhangig von der jeweili- 
gen Applikation. " • - 

ErfindungsgemaB weisen die beiden in den Figuren dargestellten Ausfuhrungsbeispiele 
jeweils neben einer Barge-in-Schalteinheit 9 eine Qualitatskontrolleinrichtung 6 auf, 
welche Teil des Sprachaktivitatsdetektors 5 ist. In dieser QualitatskontroUeinrichtung 6 
wird ein Empfangsqualitatswert S Q ermittelt. Hierbei kann es sich beispielsweise urn 
den reziproken Wert eines Hintergrundgerauschpegels handeln, welcher vor Beginn der 
AuBerung und/oder in den Sprechpausen des Benutzers vom Sprachaktivitatsdetektor 5 
gemessen wird. 

Der Empfangsqualitatswert S Q wird an die Dialog-Steuereinrichtung 1 0 ubermittelt, 
welche deh Empfangsqualitatswert S Q innerhalb eines Vergleichers 1 1,' der z. B. in 
Formeines Software-Moduls realisiert ist, mit einer vorgegebenen Empfangsqualitats- 
schwelle vergleicht. Sobald der Empfangsqualitatswert S Q unterhalb der vorgegebenen 
Schwelle liegt, wird von der Dialog-Steuereinrichtung 10 ein Barge-in- Ausschaltsignal 
S BA an die r Barge-in-Schalteinheit 9 ubermittelt und dort der Schalter in den in Figur 1 
dargestellten Zustand gebracht. D. h. das Spracherkenhungssystem 1 wird von einem 
barge-in-fahigen Betriebszustand in einen nicht barge-in-fahigen Betriebszustand um- 
geschaltet. Dies hat den Vorteil, dass es bei zu hoher Hintergrundgerauschschwelle 
nicht dazu kommen kann, dass das Spracherkennungssystem 1 wahrend einer Ausgabe 
eines Prompts standig aufgrund von Hintergrundgerauschen, welche nicht dem Benutzer 
zugeordnet sind und nicht zur Unterbrechung des Prompts dienen sollen, unterbrochen 
wird. D. h. das Spracherkennungssystem 1 schaltet in einen Betriebszustand urn, der 
zwar zu einer etwas unnaturlicheren und damit fur den Benutzer unbequemereh Dialog- 
weise ftihrt, der aber erheblich robuster und fur die zu diesem Zeitpunkt vorliegenden 
Empfangsbedingungen erheblich geeigneter ist. 
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Zusatzlich lass, die Dialog-Steuereinrichtung 10, sobald der Empfangsqualitatswert S Q 
unterhalb der vorgegebenen Empfangsqualitatsschwelle liegt, ein entsprechendes Warn- 
signal in Form eines geeigneten Warn-Prompts S w vom TTS-Generator 8 erzeugen und 
ausgeben, beispielsweise eine Ansage ,',Die Hintergrundgerausche sind zu laut. Bitte ' 
warten Sie die Ausgabe eines Prompts vollstandig ab, bevor Sie antworten." 

Die Dialog-Steuereinrichtung 10 ist derart eingerichtet, dass sie automatisch, wenn der 
Empfangsqualitatswert S Q wieder oberhalb def vorgegebenen Empfangsqualitatsschwel- 
le liegt, das Barge-in-Ausschaltsignal S BA aufhebt und somit der Schalter innerhalb der 
Barge-in-Schalteinheit 9 wieder geschlossen wird. 



Grundsatzlich steht es dabei im Ermessen des Programmierers der Dialog-Steuerein- 
. richtung 10, beliebige Empfangsqualitatsschwellen festzulegen, ab denen ein Barge-in- 

Zustand ausgeschaltet wird und/oder bei denen eine Warming an den Benutzer erfolgt, 
15 damit .dieser sich gegebenenfalls bemuht, eine ruhigere Umgebung aufzusuchen, sofem 

dies moglich ist. . , 

Figur 2 zeigt ein geringfllgig anderes Ausfuhrungsbeispiereines erfmdungsgemaBen 
Spracherkennungssystems 1. 



Bei diesem Ausmhrungsbeispiel erfolgt der Vergleich des Empfangsqualitatswerts S Q 
mit der Empfangsqualitatsschwelle direkt in der Qualitatskontrolleinrichtung 6, d. h. der 
Vergleicher 1 1 ist in die Qualitatskontrolleinrichtung 6 integriert. Die Qualitatskontroll- 
einrichtung 6 gibt bei Unterschreiten.der vorgegebenen Empfangsqualitatsschwelle ein 
25 Empfangsbeeintrachtigungsanzeigesignal S EB aus, welches gleichzeitig die Barge-in- • 
Schalteinheit 9 ausschaltet und an die Dialog-Steuereinrichtung 10 gegeben wird, damit 
dort je nach Programmierung die Ausgabe eines geeigneten Warn-Prompts S w iiber den 
TTS-Konverter 8 veranlasst wird. 
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Es wird noch einmal darauf hingewiesen, dass es sich bei den in den Figuren dargestell- 
ten Spracherkennungssystemen 1 nur urn spezielle Ausfuhrungsbeispiele der Erfindung 
handelt und es im Ermessen des Fachmanns stent, die Spracherkennungssysteme 1 bzw. . 
das Verfahren zum Betrieb der. Spracherkennungssysteme 1 im Rahmen der Erfindung 
auf verschiedene Weise zu modifizieren. 

So ist es insbesbndere mOglich, dass beispielsweise die Qualitatskontrolleinheit 6 auch . 
Teil der Dialog-Steuereinrichtung 1.0 istJ Ebenso kann die Barge-in-Schalteinrichtung 9 
auch Teil des Sprachaktivitatsdetektors 5 oder der Dialog-Steuereinrichtung 10 sein und 
beispielsweise auch als rein softwaremafiiger Schalter ausgebildet sein. Des Weiteren ist 
es mfiglich, dass die Qualitatskontrolleinheit 6 rein hardwaremafiig als eigenstandiges •• 
Modul aufgebaut ist. Aufierdem kann das Spracherkennungssystem zusatzliche Kompo- 
nenten bzw. weitere Funktionen aufweisen, beispielsweise ein intelligentes, grammatik- 
basiertes Barge-in-Verfahren durchfiihren. Hierbei wird nicht bereits von dem Sprach- 
aktivitatsdetektor das Barge-In-Signal erzeugt, sondern erst von der Spfacherkennungs- 
einrichtung, welche zunachst priift, ob ein eingehendes Signal wirklich einen sinnvollen 
Inhalt hat und daher als Barge-In-Fall anzusehen ist. Weitere Variationen kSnnen bei- 
spielsweise eine Sprechererkennung oder andere Erweiterungen des Spracherkennungs- 
systems enthalten; . • . 
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PATENT ANSPROCHF. 



. em 




1. Verfahren zum Betrieb eines Spracherkennungssystems (1), in welchem 

Sprachsignal (S,) eines Benutzers detektiert und zur Erkennung einer im Sprachsignal 

(Si) enthaltenen Sprachinformation analysiert wird, ■'. 
dadurch gekennzeichnfrt,. 

dass ein'Empfangsqualitatswert (S Q ) oder ein Storwert ermittelt wird; welcher 
aktiielle Empfangsqualitat reprasentiert, und dass das Spracherkennungssystem (1) 
einen storunempfindlicheren Betriebsmodus umschaltet. und/oder ein Warnsignal (S w ) 
an den Benutzer ausgibt, wenn der Empfangsqualitatswert (S Q ) eine bestimmte • 

Empfangsqualitatsschwelleunterschreitetbzw.derStSrwerteineStOrsch^ ' 
10 iiberschreitet. • . . • 
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2. Verfahren nach Anspruch 1, 
dadurch ge kennzeichnRt, 

dass. das Spracherkennungssystem automatisch.in den vorherigen Betriebszustand 
zurttckschaltet, wenn der Empfangsqualitatswert (S Q ) die Empfangsqualitatsschwelle 
wieder tiberschreitet bzw. der Storwert die Storschwelle wieder unterschreitet ! 

3. Verfahren nach Anspruch 1' oder 2,. 

dadurch gekennzeichriet 1 ' 

dass bei Unterschreiten der Empfangsqualitatsschwelle bzw. Oberschreiten der 
Storschwelle ein Barge-in-Betriebszustand des Spracherkennungssystems (1) • 
ausgeschaltet wird. 



4. Verfahren nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet. 

dass der Empfangsqualitatswert (S Q ) oder Storwert mittels eines 
Sprachaktivitatsdetektors (5) ermittelt wird. 

5. Verfahren hach einem der Anspruche 1 bis 4, 
dadurch gekennzeichnet 1 

dass der Empfangsqualitatswert (S Q ) oder StSrwert auf Basis eines vor Beginn der 
Aufierung und/dder in einer Sprechpause des BenUtzers empfangenen 
Untergrundsignals* ermittelt wird. 

_ 6. Verfahren nach Anspruch 4 oder 5, 
dadurch gekennzeichne^ ■ 

dass der Sprachaktivitatsdetektor (5) den Empfangsqualitatswert (Sq) oder Stdrwert 
: selbst und/oder bei Unterschreiten^der Empfangsqualitatsschwelle bzw. bei 
Uberschreiten der StSrsehwelle ein Empfangsbeeintrachtigungsanzeigesignal (S EB ) an 
eine Dialog-Steuereinrichtung (lb) ubermittelt. 

* • 

7. Verfahren nach einem der Anspruche 1 bis 6, 
dadurch gekennzeichnet^ ■ 

dass die Dialog-Steuereinrichtung (10) bei Empfang des Empfangsbeeintrachtigungs- 
anzeigesignals (S EB ) und/oder wenn der empfangene Empfangsqualitatswert (S Q ) die 
Empfangsqualitatsschwelle unterschreitet bzw. der Storwert die StQrschwelle 
uberschreitet, die Ausgabe eines Prompts (S w ) an den Benutzer auslSst, welcher die 
Information enthalt, dass die Empfangsbedingungen. schlecht sind. 
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8. Verfahren nach eineni der Anspruche 1 bis 7, 
dadurch gekennzeichnet. 

dass ein eingehendes Signal hinsichtlich der Art der StSrung, die daftir verantwortlich 
ist, dass der Empfangsqualitatswert(S Q ) unterhalb der Empfangsqualitatsschwelle bzw. 
der Storwert oberhalb der StQrschwelle liegt, analysiert wird, und an den Benutzer ein 
Prompt (S w ) ausgegeben wird, welches diese Information enthait. 

9. Spracherkennungssystem (1) mit Mitteln (5) zur Detektion eines Sprachsignals (SO 
eines Benutzers und einer Spracherkennungseinrichtung (7), urn das detektierte 
Sprachsignal (Si) zur Erkennung einer im Sprachsignal enthaltenenSprachinformation 
zu analysieren, 

gekennzeichnet durch 1 

eine QuaUtatskontrolleinrichtung (6) zur Ermittlung eines Empfangsqualitatswerts (S Q ) 
oder. eines StSrwerts, welcher eine aktuelle Empfangsqualitat reprasentiert, 
einen Vergleicher, um.den Empfangsqualitatswert (Sq) mit einer bestimmten 
Empfangsqualitatsschwelle zu vergleichen oder urn den Storwert mit einer bestimmten 
Storschwelle zu vergleichen, 
. und Steuerungsmittel (9, 10), welche derart ausgebildet sind, dass das 
Spracherkennungssystem (1) in einen stOrungsempfindlicheren Betriebsmpdus 
umgeschaltet wird und/oder ein Warnsignal (S w ) an den Benut^r ausgegeben wird, 
wenn der Empfangsqualitatswert die EmpfangsquaUtatsschwelle unterschreitet bzw. der 
St5rwert die Storschwelle iiberschreitet. • 

10. Computerprogramm mit Programmcode-Mitteln, urn alle Schritte eines Verfahrens 
nach einem der Anspriiche 1 bis 9 auszufuhren, wenn das Programm auf einem 
Computer ausgeftihrt wird. 
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